Listen Top Shows Blog

Review of Book "AI Engineering" #3 - Chapter 3 & 4: Evaluation Methodology и Evaluate AI Systems

Review of Book "AI Engineering" #3 - Chapter 3 & 4: Evaluation Methodology и Evaluate AI Systems

Update: 2025-10-16

Share

Description

Третья серия подкаста с разбором крутой книги "AI Engineering", которая дает представление об оценке как самих foundation models, так и приложений на их основе. Книгу разбирает Александр Поломодов, технический директор Т-Банка, а также Евгений Сергеев, engineering director в Flo. Собственно, в этой серии мы обсудили две главы: "Chapter 3: Evaluation Methodology" и "Chapter 4: Evaluate AI Systems". Ну а если раскладывать по темам, то они представлены ниже

Введение и тема выпуска

Почему оценка ИИ‑приложений сложна; рост важности валидации

Валидация в пайплайнах и сложности доменов

Ограничения бенчмарков и переход к продуктовой валидации

Риски неконтролируемой генерации

Теория информации: энтропия как база метрик

Кросс‑энтропия и KL‑дивергенция для оценки моделей

Перплексия и влияние контекста на уверенность модели

Функциональная корректность vs нефункциональные требования

От лексической к семантической близости; эмбеддинги

Паттерны валидации и AI as a judge

Попарные сравнения и ранжирование моделей; транзитивность и голосования

Каркас системы: критерии → выбор моделей → сборка пайплайнов

Факт‑чек и референс‑чек; доверенные источники; человеческий бейзлайн

Дизайн пайплайна: независимые тесты, гайдлайны, разметка; финальные выводы

Comments

In Channel

Interview with Vladimir Malov about tech management and vibe coding

Interview with Vladimir Malov about tech management and vibe coding

2025-12-1501:29:25

Interview with Pavel Golubev, Principal DS at Microsoft, about DS & AI

Interview with Pavel Golubev, Principal DS at Microsoft, about DS & AI

2025-11-0502:40:32

Review of Book "AI Engineering" #3 - Chapter 3 & 4: Evaluation Methodology и Evaluate AI Systems

Review of Book "AI Engineering" #3 - Chapter 3 & 4: Evaluation Methodology и Evaluate AI Systems

2025-10-1601:54:47

Interview with Alexey Gorbov about system administration & databases

Interview with Alexey Gorbov about system administration & databases

2025-10-1201:31:43

Interview with Alexey Kashin about management, architecture & reliability

Interview with Alexey Kashin about management, architecture & reliability

2025-09-1501:36:04

Interview with Maxim Korobov about management and mobile development

Interview with Maxim Korobov about management and mobile development

2025-09-1101:27:51

Interview with Evgeniy Kokuykin about custom development & security in Gen AI

Interview with Evgeniy Kokuykin about custom development & security in Gen AI

2025-09-0401:51:04

Interview with Alexander Chernikov about Management and IC Track (Staff +)

Interview with Alexander Chernikov about Management and IC Track (Staff +)

2025-09-0201:25:54

Interview with Alexey Fyodorov about Management & Conferences

Interview with Alexey Fyodorov about Management & Conferences

2025-08-2902:06:15

Interview with Sergey Mikhalev about Odnloklassniki, VK, T-Bank and Data Platform

Interview with Sergey Mikhalev about Odnloklassniki, VK, T-Bank and Data Platform

2025-08-2401:53:21

System Design Interviews: What, why and how?

System Design Interviews: What, why and how?

2025-08-2340:33

Interview with Artem Puliavin about tech management at CityMobile, CityDrive

Interview with Artem Puliavin about tech management at CityMobile, CityDrive

2025-08-1902:19:07

Interview with Anatoly Panov aobut Engineering Management at Badoo, Lazada, Avito

Interview with Anatoly Panov aobut Engineering Management at Badoo, Lazada, Avito

2025-08-1701:01:18

Interview with Daniil Kuleshov about Engineering, Architecture & Ad Tech

Interview with Daniil Kuleshov about Engineering, Architecture & Ad Tech

2025-08-0101:27:26

Interview with Vladimir Kalugin about Platform Engineering

Interview with Vladimir Kalugin about Platform Engineering

2025-07-2801:53:27

Interview with Sergey Rogachev about Engineering Management

Interview with Sergey Rogachev about Engineering Management

2025-07-2301:27:38

Integrating Gen AI into SDLC in BigTech Companies

Integrating Gen AI into SDLC in BigTech Companies

2025-07-1901:02:41

Interview with Vladimir Kokhanov about Engineering Management

Interview with Vladimir Kokhanov about Engineering Management

2025-07-1901:26:25

Review of Book "AI Engineering" #2 - Chapter 2. Understanding Foundation Models

Review of Book "AI Engineering" #2 - Chapter 2. Understanding Foundation Models

2025-07-1401:55:37

Interview with Andrew Ivanov about science & engineering management

Interview with Andrew Ivanov about science & engineering management

2025-07-0701:43:26

00:00

00:00

x

Review of Book "AI Engineering" #3 - Chapter 3 & 4: Evaluation Methodology и Evaluate AI Systems

Review of Book "AI Engineering" #3 - Chapter 3 & 4: Evaluation Methodology и Evaluate AI Systems